import sys
from pyspark.sql import SparkSession
from pyspark.sql.functions import count
if __name__ == "__main__":
   if len(sys.argv) != 2:
       print("app浏览数据分析",file=sys.stderr)
       sys.exit(-1)
       #使用sparksession 的api 构建sparksession对象
       # 如果不存在sparksession对象 则创建一个新的实例
       #每个jvm只能由一个sparksession实例
       spark = (SparkSsession).builder.appName("appVisitCount").getOrCreate()
       app_file = sys.argv[1]
       #将csv格式的文件读入spark dataFrame
       #指定读取数据时自动推断表结构，并声明文件包含表头
       app_df = (spark.read.format("csv")).option("header","true").option("inferSchema","true").load(app_file)
